混合精确的深神经网络达到了硬件部署所需的能源效率和吞吐量,尤其是在资源有限的情况下,而无需牺牲准确性。但是,不容易找到保留精度的最佳每层钻头精度,尤其是在创建巨大搜索空间的大量模型,数据集和量化技术中。为了解决这一困难,最近出现了一系列文献,并且已经提出了一些实现有希望的准确性结果的框架。在本文中,我们首先总结了文献中通常使用的量化技术。然后,我们对混合精液框架进行了彻底的调查,该调查是根据其优化技术进行分类的,例如增强学习和量化技术,例如确定性舍入。此外,讨论了每个框架的优势和缺点,我们在其中呈现并列。我们最终为未来的混合精液框架提供了指南。
translated by 谷歌翻译
This article presents morphologically-annotated Yemeni, Sudanese, Iraqi, and Libyan Arabic dialects Lisan corpora. Lisan features around 1.2 million tokens. We collected the content of the corpora from several social media platforms. The Yemeni corpus (~ 1.05M tokens) was collected automatically from Twitter. The corpora of the other three dialects (~ 50K tokens each) came manually from Facebook and YouTube posts and comments. Thirty five (35) annotators who are native speakers of the target dialects carried out the annotations. The annotators segemented all words in the four corpora into prefixes, stems and suffixes and labeled each with different morphological features such as part of speech, lemma, and a gloss in English. An Arabic Dialect Annotation Toolkit ADAT was developped for the purpose of the annation. The annotators were trained on a set of guidelines and on how to use ADAT. We developed ADAT to assist the annotators and to ensure compatibility with SAMA and Curras tagsets. The tool is open source, and the four corpora are also available online.
translated by 谷歌翻译
This paper proposes a generalizable, end-to-end deep learning-based method for relative pose regression between two images. Given two images of the same scene captured from different viewpoints, our algorithm predicts the relative rotation and translation between the two respective cameras. Despite recent progress in the field, current deep-based methods exhibit only limited generalization to scenes not seen in training. Our approach introduces a network architecture that extracts a grid of coarse features for each input image using the pre-trained LoFTR network. It subsequently relates corresponding features in the two images, and finally uses a convolutional network to recover the relative rotation and translation between the respective cameras. Our experiments indicate that the proposed architecture can generalize to novel scenes, obtaining higher accuracy than existing deep-learning-based methods in various settings and datasets, in particular with limited training data.
translated by 谷歌翻译
自动语音识别(ASR)需要对说话者的差异很强。语音转换(VC)修改了输入语音的扬声器特征。这是ASR数据增强的吸引人功能。在本文中,我们证明了语音转换可以用作数据增强技术,即使在包含2,456位扬声器的LibrisPeech上,也可以用作提高ASR性能。对于ASR增强,有必要对广泛的输入语音稳健。这激发了使用非自动回旋,非并行VC模型的使用,并在VC模型中使用了预验证的ASR编码器。这项工作表明,尽管包括许多演讲者,但演讲者的多样性可能仍然是ASR质量的限制。最后,对我们的风险投资性能的审讯为客观评估VC质量提供了有用的指标。
translated by 谷歌翻译
互联网上的用户通常需要场地来提供更好的购买建议。这可以由声誉系统提供,该系统处理评级以提供建议。评级汇总过程是声誉系统的主要部分,旨在产生有关产品质量的全球意见。经常使用的幼稚方法不会在其计算中考虑消费者概况,也无法发现新评级中出现的不公平评级和趋势。使用加权平均技术的其他复杂评级聚合方法集中在消费者概况数据的一个或几个方面。本文提出了使用机器学习的新信誉系统,以预测消费者资料中消费者的可靠性。特别是,我们通过提取一组对消费者可靠性影响的因素来构建新的消费者资料数据集,这些因素是机器学习算法的输入。然后将预测的权重与加权平均方法集成,以计算产品信誉评分。已使用10倍交叉验证对三个Movielens基准数据集进行了评估。此外,已将提出模型的性能与以前已发布的评级聚合模型进行了比较。获得的结果很有希望,这表明所提出的方法可能是声誉系统的潜在解决方案。比较结果证明了我们模型的准确性。最后,建议的方法可以与在线推荐系统集成在一起,以提供更好的购买建议并促进在线购物市场上的用户体验。
translated by 谷歌翻译
在包装交付,交通监控,搜索和救援操作以及军事战斗订婚等不同应用中,对使用无人驾驶汽车(UAV)(无人机)的需求越来越不断增加。在所有这些应用程序中,无人机用于自动导航环境 - 没有人类互动,执行特定任务并避免障碍。自主无人机导航通常是使用强化学习(RL)来完成的,在该学习中,代理在域中充当专家在避免障碍的同时导航环境。了解导航环境和算法限制在选择适当的RL算法以有效解决导航问题方面起着至关重要的作用。因此,本研究首先确定了无人机导航任务,并讨论导航框架和仿真软件。接下来,根据环境,算法特征,能力和不同无人机导航问题的应用程序对RL算法进行分类和讨论,这将帮助从业人员和研究人员为其无人机导航使用情况选择适当的RL算法。此外,确定的差距和机会将推动无人机导航研究。
translated by 谷歌翻译
本文介绍了基于2022年国际生物识别技术联合会议(IJCB 2022)举行的基于隐私感知合成训练数据(SYN-MAD)的面部变形攻击检测的摘要。该竞赛吸引了来自学术界和行业的12个参与团队,并在11个不同的国家 /地区举行。最后,参与团队提交了七个有效的意见书,并由组织者进行评估。竞争是为了介绍和吸引解决方案的解决方案,这些解决方案涉及检测面部变形攻击的同时,同时出于道德和法律原因保护人们的隐私。为了确保这一点,培训数据仅限于组织者提供的合成数据。提交的解决方案提出了创新,导致在许多实验环境中表现优于所考虑的基线。评估基准现在可在以下网址获得:https://github.com/marcohuber/syn-mad-2022。
translated by 谷歌翻译
基于监督的基于学习的形态攻击检测(MAD)解决方案在处理已知变形技术和已知数据源的攻击方面取得了杰出的成功。但是,鉴于变形攻击的变化,由于现有MAD数据集的多样性和数量不足,监督的疯狂解决方案的性能大大下降。为了解决这一问题,我们通过利用现有的大规模面部识别(FR)数据集和卷积自动编码器的无监督性质,通过自定进程异常检测(SPL-MAD)提出了一个完全无监督的疯狂解决方案。使用一般的FR数据集,这些数据集可能包含无意识的和未标记的操纵样品来训练自动编码器,可以导致攻击和真正的样本的各种重建行为。我们从经验上分析了这种行为,以提供扎实的理论基础来设计我们的无监督的疯狂解决方案。这也导致建议以完全无监督的方式整合我们改良的修改后的自定进度学习范式,以增强善意和攻击样本之间的重建误差可分离性。我们对各种MAD评估数据集的实验结果表明,所提出的无监督的SPL-MAD解决方案优于广泛监督的MAD解决方案的整体性能,并为未知攻击提供了更高的概括性。
translated by 谷歌翻译
这项工作总结了2022年2022年国际生物识别联合会议(IJCB 2022)的IJCB被遮挡的面部识别竞赛(IJCB-OCFR-2022)。OCFR-2022从学术界吸引了总共3支参与的团队。最终,提交了六个有效的意见书,然后由组织者评估。在严重的面部阻塞面前,举行了竞争是为了应对面部识别的挑战。参与者可以自由使用任何培训数据,并且通过使用众所周知的数据集构成面部图像的部分来构建测试数据。提交的解决方案提出了创新,并以所考虑的基线表现出色。这项竞争的主要输出是具有挑战性,现实,多样化且公开可用的遮挡面部识别基准,并具有明确的评估协议。
translated by 谷歌翻译
自2019年底Covid-19出现以来,Covid-19已成为人工智能(AI)社区的积极研究主题。最有趣的AI主题之一是COVID-19对医学成像的分析。 CT扫描成像是有关该疾病的最有用的工具。这项工作是第二次COV19D竞赛的一部分,在其中设定了两个挑战:COVID-19检测和COVID-19的严重性检测。对于从CT扫描的COVID-19检测,我们提出了具有Densenet-161模型的2D卷积块的集合。在这里,每个具有Densenet-161体系结构的2D卷积块是分别训练的,在测试阶段,集合模型基于其概率的平均值。另一方面,我们提出了一个卷积层的集合,该集合具有用于COVID-19的严重程度检测的成立模型。除了卷积层外,还使用了三个成立变体,即Inception-V3,Inception-V4和Inception-Resnet。我们提出的方法在第二COV19D竞赛的验证数据中的表现优于基线方法,分别为COVID-19检测和COVID-19的严重性检测分别为11%和16%。
translated by 谷歌翻译